Transformer 架构

1. 概述

2. 标准结构

通用大模型(LLM)只用 Decoder-only。

Transformer架构示意图

3. 核心组件

- 把 token 变成向量,让模型能看懂。 - Transformer 没有时序,必须告诉它词的顺序。 - Transformer 的灵魂。 - 把一句话里每个词和所有词关联 - 自动学习:谁重要、谁和谁相关 - 多头 = 同时关注不同类型关系 - 两层全连接,做特征变换。 - 防止深层网络梯度消失。 - 稳定训练,让分布更平稳。

4. Transformer优势